其他
为什么说Transformer就是图神经网络?
前言
NLP的表示学习
解析Transformer
多头注意力机制
尺度问题和前向传播子层
GNNs构建图的表示
句子就是由词全连接而成的图
可以从Transformers和GNN中学到什么?
8.1 全连接图是NLP的最佳输入格式吗?
8.2 如何学习到长期依赖?
8.3 Transformers在学习神经网络的句法吗?
8.4 为什么要用多头注意力?为什么要用注意力机制?
8.5 为什么Transformers这么难训练?
【end】
◆
精彩推荐
◆
推荐阅读
你点的每个“在看”,我都认真当成了AI